Version 0.5
Last Update:1999/12/27
イースト株式会社 コミュニケーション事業部
渋谷 誠
別文書で公開している、「官報データ デキスト入力仕様」に従うものとする。
仕様に従ったテキストファイルを読み込んで、「官報データ入力作業 入力規約書」(以下「官報仕様書」)に従ったタグ付けがされた XML ファイルを出力する。その中で行われる処理はおおよそ以下の通り。
自動タグ付けは、一号分の入力テキストファイルをひとつに結合しながら行う。
ページの区切りの目印として、独自タグ<pb/>を挿入する。
ページをまたがる「表」や「分行」を自動的に検出し、それぞれから生成されるタグに、分割されていることを示すpart属性(part="1" と part="2")を付加する。
全ての文字について、以下のようなチェックや自動修正を行う。
「公告」の多くがそうであるように、定型の書式の記事が繰り返し並んでいるような項目については、個別にそのパターンを解析して自動的に書式設定のタグ付けをおこなう。この自動書式設定を行った項目については、後の最終編集工程では簡単な書式の確認のみで充分である。(ただし、入力テキストが空白や改行の規則に正しくしたがって入力されていることが前提となる。)
自動書式設定を実施した項目の項目タグには、layout="auto"の属性を設定する。実施されていない項目には、layout="none"の属性を設定する。
XMLの整形式(well-formed)文書となっている。
「官報DTD」で定められたタグの他に、専用エディタで利用するために、以下のような独自のタグ・属性もつけられている。
このような独自タグが残っているため、「官報DTD」に対して検証済(valid)な文書にはならない。ただし、独自タグを追加定義した「官報DTD」の修正版を用意し、それに対しては検証済(valid)な文書となる。
自動タグ付け後に残る作業は以下のとおり。この作業を効率よく行うために、この目的専用のエディタを開発中。
ページ境界で分割されている行や分行や表を結合する。専用エディタではpart属性によって分割された表や分行を目立つ色で表示したり、全体から検索したりする事ができる。
2. D) での自動書式設定が行われていない(layout=none)項目については、以下の作業が必要。
専用エディタでは、文書全体がツリー構造で表示されるが、その中で各項目はlayout属性の値によって色分けされて表示される。 手動での書式設定が終わった項目については、「完了マークをつける」コマンドにより、layout属性を done に設定することができる。
機械的に生成されているだけの表を罫線や書式を含めて仕上げる。専用エディタでは、table要素を選択して「コピー」コマンドを実行すると、<table>タグの部分だけがHTML形式のままクリップボードにコピーされる。「張り付け」コマンドでは反対にクリップボードのHTML形式のtableを、table要素内に取り込むことができる。この機能を活用すれば、市販のすぐれた表編集機能を持ったHTMLエディタを利用することができる。
仕様書に定められているように、IE5.0のXML表示機能を使って最終校正を行う。専用エディタでは、IE5.0の表示エンジンを呼び出すことによってIE5.0と全く同一の表示を行うことができるので、わざわざIE5.0自身を起動する必要はない。(縦組みでの表示や文字鏡外字のイメージでの表示も検討中)
この段階で発見された誤りを修正するため、専用エディタでは「官報DTD」で定められた全てのタグや属性を生成したり、削除したりする機能をひととおり全部備えたものとなる。
最終段階として独自タグや属性を全て削除し、正式の「官報DTD」によって検証(Validation)を行う必要がある。専用エディタでは「最終形式で保存」コマンドを実行。